我们提出了针对微小神经网络的域概括(DG)的系统研究,这个问题对于机上机器学习应用至关重要,但在研究仅针对大型模型的文献中被忽略了。微小的神经网络具有较少的参数和较低的复杂性,因此不应以与DG应用的大型同行相同的方式进行训练。我们发现知识蒸馏是解决问题的有力候选者:它优于使用具有较大利润的大型模型开发的最先进的DG方法。此外,我们观察到,与域移动有关的测试数据上的教师学生绩效差距大于分布数据的绩效差距。为了改善微小神经网络而不增加部署成本的DG,我们提出了一个简单的想法,称为分布外知识蒸馏(OKD),该想法旨在教导学生如何处理(综合)分发数据和分布数据和被证明是解决问题的有前途的框架。我们还为创建DG数据集的可扩展方法(在上下文中称为域移动(DOSCO))提供了可扩展的方法,该数据可以在不大量努力的情况下按大规模应用大量数据。代码和模型以\ url {https://github.com/kaiyangzhou/on-device-dg}发布。
translated by 谷歌翻译
现有的研究解决场景图生成(SGG) - 图像中场景理解的关键技术 - 从检测角度,即使用边界框检测到对象,然后预测其成对关系。我们认为这种范式引起了几个阻碍该领域进步的问题。例如,当前数据集中的基于框的标签通常包含冗余类,例如头发,并遗漏对上下文理解至关重要的背景信息。在这项工作中,我们介绍了Panoptic场景图生成(PSG),这是一项新的问题任务,要求该模型基于全景分割而不是刚性边界框生成更全面的场景图表示。一个高质量的PSG数据集包含可可和视觉基因组的49k井被宣传的重叠图像,是为社区创建的,以跟踪其进度。为了进行基准测试,我们构建了四个两阶段基线,这些基线是根据SGG中的经典方法修改的,以及两个单阶段基准,称为PSGTR和PSGFORMER,它们基于基于高效的变压器检测器,即detr。虽然PSGTR使用一组查询来直接学习三重态,但PSGFormer以来自两个变压器解码器的查询形式分别模拟对象和关系,然后是一种迅速的关系 - 对象对象匹配机制。最后,我们分享了关于公开挑战和未来方向的见解。
translated by 谷歌翻译
在“知识图”(kgs)的表示领域中,超级关系的事实由主要三重和几个辅助属性描述组成,这被认为比基于三重的事实更全面,更具体。但是,由于代表实体之间的隶属关系的层次结构削弱,因此,单个视图中现有的超相关KG嵌入方法受到限制。为了打破这一限制,我们提出了一个双视性超相关kg(DH-kg)结构,该结构包含实体的超相关实例视图,以及对从实体到共同模型超相关的概念的超相关本体论视图和分层信息。在本文中,我们首先定义了DH-KG上的链接预测和实体键入任务,并根据医疗数据构建了两个DH-KG数据集,即从Wikidata和HTDM中提取的JW44K-6K。此外,我们根据Gran编码器,HGNN和联合学习提出了DH-KG嵌入模型DHGE。实验结果表明,DHGE在DH-KG上的表现优于基线模型。我们还提供了该技术在高血压药物领域中应用的示例。我们的模型和数据集公开可用。
translated by 谷歌翻译
我们在RGB-D数据中解决了人们检测的问题,在该数据中,我们利用深度信息开发了利益区域(ROI)选择方法,该方法为两种颜色和深度CNN提供建议。为了结合两个CNN产生的检测,我们根据深度图像的特征提出了一种新型的融合方法。我们还提出了一个新的深度编码方案,该方案不仅将深度图像编码为三个通道,而且还增强了分类信息。我们对公开可用的RGB-D人数据集进行了实验,并表明我们的方法优于仅使用RGB数据的基线模型。
translated by 谷歌翻译
在过去的几年中,视觉模型的规模呈指数增长,尤其是在视觉变压器出现之后。这激发了参数有效调整方法的开发,例如学习适配器层或视觉及时令牌,这允许训练一小部分模型参数,而从预训练中获得的绝大多数则可以冷冻。但是,设计适当的调整方法是不平凡的:可能需要尝试冗长的设计选择列表,更不用说每个下游数据集通常都需要自定义设计。在本文中,我们将现有的参数效率调整方法视为“及时模块”,并提出了神经及时搜索(Noah),这是一种新颖的方法,可以学习大型视觉模型,通过神经体系结构搜索算法的及时模型的最佳设计, ,专门针对每个下游数据集。通过对20多个视觉数据集进行广泛的实验,我们证明了Noah(i)优于单个提示模块,(ii)具有良好的少数学习能力,并且(iii)可以域名。代码和型号可在https://github.com/davidzhangyuanhan/noah上找到。
translated by 谷歌翻译
Open-vocabulary object detection, which is concerned with the problem of detecting novel objects guided by natural language, has gained increasing attention from the community. Ideally, we would like to extend an open-vocabulary detector such that it can produce bounding box predictions based on user inputs in form of either natural language or exemplar image. This offers great flexibility and user experience for human-computer interaction. To this end, we propose a novel open-vocabulary detector based on DETR -- hence the name OV-DETR -- which, once trained, can detect any object given its class name or an exemplar image. The biggest challenge of turning DETR into an open-vocabulary detector is that it is impossible to calculate the classification cost matrix of novel classes without access to their labeled images. To overcome this challenge, we formulate the learning objective as a binary matching one between input queries (class name or exemplar image) and the corresponding objects, which learns useful correspondence to generalize to unseen queries during testing. For training, we choose to condition the Transformer decoder on the input embeddings obtained from a pre-trained vision-language model like CLIP, in order to enable matching for both text and image queries. With extensive experiments on LVIS and COCO datasets, we demonstrate that our OV-DETR -- the first end-to-end Transformer-based open-vocabulary detector -- achieves non-trivial improvements over current state of the arts.
translated by 谷歌翻译
关于无监督域适应性(UDA)的大多数现有研究都认为每个域的训练样本都带有域标签(例如绘画,照片)。假定每个域中的样品都遵循相同的分布,并利用域标签通过特征对齐来学习域不变特征。但是,这样的假设通常并不成立 - 通常存在许多较细粒的领域(例如,已经开发出了数十种现代绘画样式,每种绘画样式与经典风格的范围都有很大不同)。因此,在每个人工定义和粗粒结构域之间强迫特征分布对齐可能是无效的。在本文中,我们从完全不同的角度解决了单源和多源UDA,即将每个实例视为一个良好的域。因此,跨域的特征对齐是冗余。相反,我们建议执行动态实例域的适应性(DIDA)。具体而言,开发了具有自适应卷积内核的动态神经网络,以生成实例自适应残差,以使域 - 无知的深度特征适应每个单独的实例。这使得共享分类器可以同时应用于源域数据,而无需依赖任何域注释。此外,我们没有施加复杂的特征对准损失,而是仅使用标记的源和伪标记为目标数据的跨透镜损失采用简单的半监督学习范式。我们的模型被称为DIDA-NET,可以在几种常用的单源和多源UDA数据集上实现最先进的性能,包括数字,办公室房屋,域名,域名,Digit-Five和PAC。
translated by 谷歌翻译
大多数现有的多源域适配(MSDA)方法通过特征分布对准最小化多个源 - 目标域对之间的距离,从单个源设置借用的方法。但是,对于不同的源极域,对齐成对特征分布是具有挑战性的,甚至可以对MSDA进行反效率。在本文中,我们介绍了一种新颖的方法:可转让的属性学习。动机很简单:虽然不同的域可以具有急剧不同的视野,但它们包含相同的类类,其特征在一起相同的属性;因此,MSDA模型应该专注于学习目标域的最可转换的属性。采用这种方法,我们提出了域名关注一致性网络,称为DAC网。关键设计是一个特征通道注意模块,旨在识别可转移功能(属性)。重要的是,注意模块受到一致性损失的监督,这对源极和目标域之间的信道注意权重的分布施加。此外,为了促进对目标数据的鉴别特征学习,我们将伪标记与类紧凑性丢失相结合,以最小化目标特征和分类器的权重向量之间的距离。在三个MSDA基准测试中进行了广泛的实验表明,我们的DAC-NET在所有这些中实现了新的最新性能。
translated by 谷歌翻译
分布(OOD)检测对于确保机器学习系统的可靠性和安全性至关重要。例如,在自动驾驶中,我们希望驾驶系统在发现在训练时间中从未见过的异常​​场景或对象时,发出警报并将控件移交给人类,并且无法做出安全的决定。该术语《 OOD检测》于2017年首次出现,此后引起了研究界的越来越多的关注,从而导致了大量开发的方法,从基于分类到基于密度到基于距离的方法。同时,其他几个问题,包括异常检测(AD),新颖性检测(ND),开放式识别(OSR)和离群检测(OD)(OD),在动机和方法方面与OOD检测密切相关。尽管有共同的目标,但这些主题是孤立发展的,它们在定义和问题设定方面的细微差异通常会使读者和从业者感到困惑。在这项调查中,我们首先提出一个称为广义OOD检测的统一框架,该框架涵盖了上述五个问题,即AD,ND,OSR,OOD检测和OD。在我们的框架下,这五个问题可以看作是特殊情况或子任务,并且更容易区分。然后,我们通过总结了他们最近的技术发展来审查这五个领域中的每一个,特别关注OOD检测方法。我们以公开挑战和潜在的研究方向结束了这项调查。
translated by 谷歌翻译
诸如剪辑之类的大型预训练的视觉模型在学习表现方面表现出巨大的潜力,这些模型可以在各种下游任务中转移。与主要基于离散标签的传统表示学习不同,视觉语言预训练会使图像和文本在公共特征空间中对齐,这允许通过提示零弹性转移到下游任务,即从分类权重合成。描述兴趣类的自然语言。在这项工作中,我们表明,在实践中部署此类模型的一个重大挑战是及时的工程,它需要域专业知识,并且非常耗时 - 由于措辞的略有变化,需要花费大量时间来进行单词调整可能会对性能产生巨大影响。受到自然语言处理(NLP)迅速学习研究的最新进展的启发,我们提出了上下文优化(COP),这是一种专门用于调整类似剪辑的视觉语言模型的简单方法,用于下游图像识别。具体而言,Coop用可学习的向量建模了提示A的上下文单词,而整个预训练的参数则保持固定。为了处理不同的图像识别任务,我们提供了两个COOP的实现:统一上下文和特定于班级的上下文。通过在11个数据集上进行的大量实验,我们证明Coop只需要一两个镜头才能以相当的利润击败手工制作的提示,并且能够以16张镜头(例如16张照片)获得迅速工程的显着改进增益约为15%(最高达到45%以上)。尽管是一种基于学习的方法,但与使用手工制作的提示相比,Coop与零拍模型相比,取得了出色的域泛化性能。
translated by 谷歌翻译